AI资讯新闻榜单内容搜索-Claude 3

天塌了，Claude 全面断供Windsurf！CEO喊冤控诉也挡不住开发者退订，祸起OpenAI收购？

当地时间 6 月 4 日，Windsurf CEO Varun Mohan 发帖称，在提前不到五天的通知时间里，Anthropic 切断了其几乎所有 Claude 3.x 模型的直接访问权限（first-party capacity），包括 Claude 3.5 Sonnet、3.7 Sonnet 和 3.7 Sonnet Thinking。

来自主题: AI资讯

9013 点击 2025-06-04 16:36

网友晒 21 页 PDF 质疑 Grok 3 套壳 Claude，Grok 3 自己承认了！xAI 工程师被喷无能

近日，一位 ID 名为 GpsTracker 的网友在网上爆料称，埃隆·马斯克旗下 xAI 公司最新发布的 Grok 3 人工智能模型存在异常行为——当用户激活其“思考模式”提问时，模型竟自称是竞争对手 Anthropic 公司开发的 Claude 3.5 模型。

来自主题: AI资讯

8555 点击 2025-06-04 11:37

准确率92.7%逼近Claude 3.5、成本降低86%，开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究！来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架，直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。

来自主题: AI技术研报

8751 点击 2025-05-29 10:03

全球顶尖AI做物理，被人类按地摩擦？不懂推理大翻车，本科生碾压

最顶尖的AI模型，做起奥数题来已经和人类相当，那做物理题水平如何呢？港大等机构的研究发现：即使GPT-4o、Claude 3.7 Sonnet这样的最强模型，做物理题也翻车了，准确率直接被人类专家碾压！

来自主题: AI技术研报

11134 点击 2025-05-28 11:58

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

Vending-Bench模拟环境可以测试大模型管理自动售货机的能力，结果显示，Claude 3.5 Sonnet表现最佳，人类屈居第四！

来自主题: AI技术研报

10774 点击 2025-05-25 16:22

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

自 Anthropic 推出 Claude Computer Use，打响电脑智能体（Computer Use Agent）的第一枪后，OpenAI 也相继推出 Operator，用强化学习（RL）算法把电脑智能体的能力推向新高，引发全球范围广泛关注。

来自主题: AI技术研报

9653 点击 2025-05-25 15:11

可靠的Agent该用哪个模型，LLM多轮对话中的「迷失」现象 |微软最新

微软最近与Salesforce Research联合发布了一篇名为《Lost in Conversation》的研究，说当前最先进的LLM在多轮对话中表现会大幅下降，平均降幅高达39%。这一现象被称为对话中的"迷失"。文章分析了各大模型（包括Claude 3.7-Sonnet、Deepseek-R1等）在多轮对话中的表现差异，还解析了模型"迷失"的根本原因及有效缓解策略。

来自主题: AI技术研报

9734 点击 2025-05-20 10:16

1/8成本比肩Claude 3.7，Mistral Medium 3来了

用1/8成本比肩Claude 3.7，刚刚，“欧洲OpenAI”Mistral AI发布多模态新模型。

来自主题: AI资讯

12111 点击 2025-05-08 12:03

Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7

谷歌Gemini 2.5 Pro（I/O版）横空出世，强势登顶LMAreana，斩获文本、视觉、编码三连冠，甚至编程能力全面碾压Claude 3.7，地表最强编码模型诞生。

来自主题: AI资讯

9403 点击 2025-05-07 14:32

AI对战略咨询公司的影响，及其应对（以麦肯锡、BCG 为例）

自 OpenAI 发布 chatgpt 以来，业内除了技术公司、媒体公司比较关注其进展以外，还有一个行业比较关注，那就是战略咨询行业。尤其是最近 GPT-4o、Claude 3.7 Sonnet 为代表的最新大模型在数据分析、内容生成、编码和复杂推理方面展现出强大能力，与战略咨询工作的核心环节高度相关。

来自主题: AI资讯

11852 点击 2025-04-28 08:58

AI资讯新闻榜单内容搜索-Claude 3

天塌了，Claude 全面断供Windsurf！CEO喊冤控诉也挡不住开发者退订，祸起OpenAI收购？

网友晒 21 页 PDF 质疑 Grok 3 套壳 Claude，Grok 3 自己承认了！xAI 工程师被喷无能

准确率92.7%逼近Claude 3.5、成本降低86%，开源代码定位新神器LocAgent来了

全球顶尖AI做物理，被人类按地摩擦？不懂推理大翻车，本科生碾压

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

可靠的Agent该用哪个模型，LLM多轮对话中的「迷失」现象 |微软最新

1/8成本比肩Claude 3.7，Mistral Medium 3来了

Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7

AI对战略咨询公司的影响，及其应对（以麦肯锡、BCG 为例）

Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7